WordBias | 可视化文本中的偏见(刻板印象)
词嵌入做为一种词向量模型,可以从文本中计算出隐含的上下文情景信息,态度及偏见。通过词向量距离的测算,就可以间接测得不同群体对某概念(组织、群体、品牌、地域等)的态度偏见。
偏见(刻板印象)的介绍有
大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用
计算机科学家,正研究如何在AI中减弱甚至剔除刻板印象;但在社会科学领域,接受已有数据中存在的刻板印象,在数据中测量Bias,发现Bias,应用Bias,也能更好的认识和改造社会 。今天介绍一个挺好玩的工具WordBias。
五一工作坊感兴趣的童鞋可以关注一下,Python部分新增词嵌入&偏见挖掘
https://hidadeng.github.io/blog/2022-05-workshop/7-Python.html
WordBias
WordBias:一种用于发现词嵌入偏见(刻板印象)的交互式可视化工具, 旨在探索子群体(intersectional groups,直译为交叉群体)(如黑人女性、黑人穆斯林男性等)在词嵌入中的编码偏见。我们的工具认为一个词与一个交叉组相关联,例如“Christian Males”,如果它与它的每个构成子集(Christians 和 Males)密切相关。我们的工具旨在为专家提供有效的审核工具,为非专家提供教育工具,并增强领域专家的可访问性。
例如对“黑人男性”的刻板印象,是由“男人”和“黑人”两类刻板印象加上一些其他线索组成的。
所以这里intersectional groups,直译为交叉群体, 感觉不太好理解, 我把intersectional groups理解为群体中的子群体。个人理解,不一定合理,欢迎留言。
https://github.com/bhavyaghai/WordBias Paper https://arxiv.org/abs/2103.03598 视频演示(5min) https://www.youtube.com/watch?v=LcwlyU3QT0w 在线Demo http://130.245.128.219:6999/
安装
下载仓库 https://github.com/hiDaDeng/WordBias.git
命令行切换至WordBias文件夹,安装依赖包
cd Path_of_WordBias_Directory
pip3 install -r req.txt运行WordBias,命令行执行
python3 app.py
在浏览器中打开打开链接
https://localhost:6999
浏览器中会出现界面,如下图
界面
上图为WordBias的可视化界面。图片可以分为3部分:
(A) 控制面板提供选择要投影到平行坐标图上的单词的选项
(B) 主视图显示所选单词(蓝线)沿不同偏见类型(轴)的偏差分数
(C) 搜索面板使用户能够搜索单词并显示搜索/刷新结果。
案例1-极端主义
在上图A位置选择恐怖主义类别词Extremism
在图中B位置,可以看到这些负面词在不同维度上存在不同的偏见。
性别: 这类词主要倾向于男性 地区:这类词倾向于伊斯兰地区 年龄: 这类词倾向于年轻人 经济: 这类词倾向于贫穷
这表明 Word2vec 嵌入包含对穆斯林地区的贫困男性存在偏见。
案例2-pretty/beautifull
根据WordBias,描述女性美丽,可能不同的词使用范围不太一样。
在年龄维度,pretty更适合描述小女生,而beautifull适合成熟女性。
岁月从不败美人,说的就是beautifull woman吧。
论文
使用到wordbias,请注明出处
@inproceedings{ghai2021wordbias,
title={WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings},
author={Ghai, Bhavya and Hoque, Md Naimul and Mueller, Klaus},
booktitle={Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems},
pages={1--7},
year={2021}
}
基于训练好的词嵌入模型,WordBias计算每个词与性别、宗教等不同社会分类(类别词典)的偏见分数(关联系数),研究者定义了多个类别,如子类别,
类 | 子类 | 词表 |
---|---|---|
Gender | Male | he, son, his, him, father, man, boy, himself, male, brother, sons, fathers, men, boys, males, brothers, uncle, uncles, nephew, nephews |
Gender | Femal | she, daughter, hers, her, mother, woman, girl, herself, female, sister, daughters, mothers, women, girls, sisters, aunt, aunts, niece, nieces |
Age | Young | Taylor, Jamie, Daniel, Aubrey, Alison, Miranda, Jacob, Arthur, Aaron, Ethan |
Age | Old | Ruth, William, Horace, Mary, Susie, Amy, John, Henry, Edward, Elizabeth |
Religion | Islam | allah, ramadan, turban, emir, salaam, sunni, koran, imam, sultan, prophet, veil, ayatollah, shiite, mosque, islam, sheik, muslim, muhammad |
Religion | Christainity | baptism, messiah, catholicism, resurrection, christianity, salvation, protestant, gospel, trinity, jesus, christ, christian, cross, catholic, church |
Race | Black | black, blacks, Black, Blacks, African, african, Afro |
Race | White | white, whites, White, Whites, Caucasian, caucasian, European, european, Anglo |
Economic | Rich | rich, richer, richest, affluence, advantaged, wealthy, costly, exorbitant, expensive, exquisite, extravagant, flush, invaluable, lavish, luxuriant, luxurious, luxury, moneyed, opulent, plush, precious, priceless, privileged, prosperous, classy |
Economic | Poor | poor, poorer, poorest, poverty, destitude, needy, impoverished, economical, inexpensive, ruined, cheap, penurious, underprivileged, penniless, valueless, penury, indigence, bankrupt, beggarly, moneyless, insolvent |
其中偏见分数使用了Relative Norm Difference算法。设向量g1、g2分别表示一个类别中的两个子群体(如黑人,g1黑女 g2黑男) ,给定一个词w, 分别计算w与g1、g2的距离。如果不等距,则表示存在刻板印象,距离差值越大,偏见得分(BiasScore)越深。